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(57) Abstract 



In a method for assessing the quality of an audio test signal (14), which has 
been derived by coding and decoding an audio reference signal (12), the audio 
test signal (14) is compared with the audio reference signal (12), as it were, 
behind the cochlea of the human ear. All masking effects and the transmission 
functions of the ear are equally applied to the audio reference signal (12) and 
to the audio test signal (14). To mis end, the audio test signal (14) is broken 
down according to its spectra] components by means of a first bank of filters 
(20) consisting of filters overlapping in frequency and defining spectral regions, 
said filters having differing filtering functions, which have been determined on 
the basis of the excitation curve of the human ear with respect to the respective 
filtered middle frequency. The audio reference signal (12) is also broken down 
according to its spectral composition into partial audio reference signals by 
means of a second bank of filters (16) coinciding with the first bank of filters 




(2). Subsequently, a level difference by spectral region is formed between the 
audio test signals (22) belonging to the same spectral regions and the audio 

reference signals (18). To assess the quality of the audio test signal (14), a detection probability is determined on the basis of each level 
difference so as to pick up any decoding error of the test signal (14) in the spectral region concerned. 



V 



(57) Zusammenfassung 

Bei einem Verfahren zur QuaUtatsbeurteilung tints Audiotestsignals (14), das durch Codierung und Decodienmg von einem Au- 
dioreferenzsignals (12) abgeleitet ist, findet em Vergleich des Audiotestsignals (14) mit dem Audiomferenzsignal (12) gewissermafien h inter 
der Geh&schnecke des menschlichen Ohrs statt Alle Vendeckungseffekte sowie die Obertragungsfunktion des Ohrs werdcn gleichennaBen 
auf das Audioreferenzsignal (12) und das Audiotestsignal (14) angewandt Dazu wird das Audiotestsignal (14) gem&fi seiner spektralen 
Zusammensetzung mittels einer ersten Fitterbank (20) aus einander sich rrequenzrnaBig uberlappenden, Spektralabscnnitte deflnierenden 
Ffltem mit voneinander abweichenden Fflterfunktionen zerlegt, die jeweils aufgnmd der Erregungskurven des menschlichen Ohrs bei der 
jeweiligen Filtermittenfrequenz festgelegt sind. Das Audioreferenzsignal (12) wird ebenfalls gemflB seiner spektralen Zusammensetzung mit- 
tels einer mit der ersten Filterbank (20) flbereinstimmenden zweiten Filterbank (16) in Audioreferenzteilsignale (18) zerlegt Anschliefiend 
wird spektralabschnittsweise eine Pegeldifferenz zwischen den zu gleichen Spektralabschnitten gehdrigen Audiotestteilsignalen (22) und 
Audioreferenzteilsignalen (18) gebildet Zur Qualitfitsbeurteilung des Audiotestsignals (14) wird spektralabschnittsweise eine Detektion- 
swabrscheinlichkeit fur die Erfassung eines Codierungsfehlers des Audiotestsignals (14) in dem betreffenden Spektralabschnitt aufgrund der 
jeweiligen Pegeldifferenz bestimmt 
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Gehorangepaflte Qualitatsbourteilung von Audiosignalen 

Beschreibunq 

Die vorliegende Erfindung bezieht sich auf die Audio-Codie- 
rung bzw. -Decodierung und insbesondere auf ein Verfahren 
und eine Vorrichtung zur gehorangepaflten Qualitatsbeurtei- 
lung von Audiosignalen. 

Nachdem gehorangepaflte digitale Codierverf ahren seit einigen 
Jahren standardisiert sind (Kh. Brandenburg und G. Stoll, 
The iso/mpeg-audio codec: A generic standard for coding of 
high quality digital audio, 92nd AES-Convention , Wien, 1992, 
Preprint 3336) , werden dieselben in steigendem MaBe einge- 
setzt. Beispiele hierflir sind die digitale Kompaktkassette 
(DCC; DCC = Digital Compact Cassette), die Minidisk, der di- 
gitale terrestrische Rundfunk (DAB; DAB = Digital Audio 
Broadcasting) und die digitale Videodisk (DVD) . Die von 
analogen tibertragungen bekannten Storungen treten bei der 
digitalen uncodierten Tonsignalubertragung in der Regel 
nicht mehr auf. Die MeBtechnik kann sich auf den ttbergang 
von analog zu digital und umgekehrt beschranken, falls keine 
codierung der Tonsignale durchgefiihrt wird. 

Bei der Codierung mittels gehorangepaBter Codierverf ahren 
konnen jedoch hSrbare Kunstprodukte oder Artefakte auf tre- 
ten, die in der analogen Tonsignalverarbeitung nicht aufge- 
treten sind. 

Bekannte MeBwerte fiir Verzerrungen, wie z.B. der Klirrfaktor 
oder der Signal-Rausch-Abstand, sind ftir gehorangepaflte Co- 
dierverf ahren nicht einsetzbar. Viele gehorangepaflt codierte 
Musiksignale weisen einen Signal-Rausch-Abstand von unter 15 
dB auf, ohne dafl horbare Unterschiede zum uncodierten Origi- 
nalsignal wahrnehmbar werden. Umgekehrt kann ein Signal- 
Rausch-Abstand von mehr als 40 dB bereits zu deutlich hSrba- 
ren StSrungen fiihren. 
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In den letzten Jahren wurden verschiedene gehSrangepaBte 
MeBverfahren vorgestellt, von denen das NMR-Verfahren (NMR = 
Noise to Mask Ratio) erwShnt sei (Kh. Brandenburg und Th. 
Sporer. "NMR" und "Masking Flag": Evaluation of quality 
using perceptual criteria. In Proceedings of the 11th Inter- 
national Conference of the AES, Portland, 1992) . 

Bei einer Implementation des NMR-Verfahrens wird jeweils ei- 
ne diskrete Fourier-Transformation der Lange 1024 unter Ver- 
wendung eines Hann-Fensters mit einer Fortschrittsgeschwin- 
digkeit von 512 Abtastwerten fiir ein Originalsignal und fiir 
ein Differenzsignal zwischen dem Originalsignal und einem 
verarbeiteten Signal berechnet. Die daraus erhaltenen Spek- 
tralkoeffizienten werden in FrequenzbMndern, deren Breite 
nSherungsweise den von Zwicker in E. Zwicker, Psychoakustik, 
Springer-Verlag, Berlin Heidelberg New York, 1982, vorge- 
schlagenen Frequenzgruppen entspricht, zusammengef aBt, wo- 
nach die Energiedichte jedes Frequenzbandes bestimmt wird. 
Aus den Energiedichten des Originalsignals wird unter Be- 
riicksichtigung der Verdeckung innerhalb der jeweiligen Fre- 
quenzgruppe, der Verdeckung zwischen den Frequenzgruppen und 
der Nachverdeckung fiir jedes Frequenzband eine aktuelle Mas- 
kierungs- oder Verdeckungsschwelle bestimmt, mit der die 
Energiedichte des Dif ferenzsignals verglichen wird. Die Ru- 
hehSrschwelle des menschlichen Ohrs wird nicht vollstandig 
berticksichtigt, da die Eingangssignale des MeBverfahrens 
nicht mit festen AbhSrlautstSrken identif iziert werden k&n- 
nen, da iiblicherweise ein Horer von Audiosignalen einen Zu- 
griff auf die Lautst&rke des Musik- oder Tonstticks hat, das 
er horen mochte. 

Es hat sich herausgestellt, daB das NMR-Verfahren beispiels- 
weise bei einer typischen Abtastrate von 44,1 kHz eine Fre- 
quenzauflbsung von ca. 43 Hz und eine Zeitauf lfisung von ca. 
23 ms besitzt. Die Frequenzauf lbsung ist bei niedrigen Fre- 
quenzen zu gering, wShrend die Zeitauf lSsung bei hohen Fre- 
quenzen zu gering ist. Trotzdem reagiert das NMR-Verfahren 
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auf viele Zeiteffekte gut. 1st eine Folge von Anschlaqen, 
wie z.B. Trommelschlagen, niedrig genug, dann hat der Block 
vor dem Anschlag noch eine sehr kleine Energie, wodurch ein 
eventuell auftretendes Vorecho genau erkannt werden kann. 
Die Fortschrittsgeschwindigkeit von 11,6 ms fur das Analyse- 
fenster ermoglicht es, viele Vorechos zu erkennen. Liegt das 
Analysefenster allerdings ungiinstig, so kann ein Vorecho un- 
erkannt bleiben. 

Der Unterschied zwischen einer Verdeckung durch tonale Si- 
gnale und durch Rauschen wird bei dem NMR-Verf ahren nicht 
berucksichtigt. Die verwendeten Verdeckungskurven sind aus 
subjektiven Hortests gewonnene Erfahrungswerte. Die Fre- 
quenzgruppen sitzen dabei an festen Positionen innerhalb des 
Frequenzspektrums, wohingegen das Ohr die Frequenzgruppen 
dynamisch um einzelne besonders hervorstechende Schallereig- 
nisse im Spektrum bildet. Richtiger ware daher eine dynami- 
sche Anordnung um die Energiedichteschwerpunkte. Durch die 
Breite der festen Frequenzgruppen ist es nicht moglich, zu 
unterscheiden, ob beispielsweise ein Sinus-Signal in der 
Mitte Oder an einer Flanke einer Frequenzgruppe liegt. Die 
Verdeckungs- Oder Maskierungskurve geht daher vom kritisch- 
sten Fall, d.h. der geringsten Verdeckung, aus. Das NMR-Ver- 
fahren zeigt deshalb manchmal Stbrungen an, die von einem 
Menschen nicht gehSrt werden konnen. 

Die bereits erwahnte geringe Frequenzauf losung von lediglich 
43 Hz stellt insbesondere im unteren Frequenzbereich eine 
Grenze fur eine gehQrangepaBte Qualitatsbeurteilung von 
Audiosignalen mittels des NMR-Verf ahr ens dar. Dies wirkt 
sich besonders nachteilig bei der Beurteilung von tiefen 
Sprachsignalen, wie sie beispielsweise ein mannlicher Spre- 
cher erzeugt, oder von Tonen sehr tiefer Instrumente, wie 
z.B. eine BaBposaune, aus. 

Zum besseren Verstandnis der vorliegenden Erfindung werden 
im nachfolgenden einige wichtige psychoakustische und kogni- 
tive Grundlagen fiir die gehorangepaBte Qualitatsbeurteilung 
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von Audiosignalen genannt. Der fur die gehSrangepaflte Coaie- 
rung und MeBtechnik wichtigste Begriff ist die Verdeckung, 
welche in Anlehnung an den englischen Begriff "masking" auch 
oft Maskierung genannt wird. Ein leises einzeln auftretendes 
wahrnehmbares Schallereignis wird durch ein lauteres Schall- 
ereignis verdeckt, d.h. es wird in Anwesenheit des zweiten, 
lauteren Schallereignisses nicht mehr wahrgenommen . Die Ver- 
deckung ist sowohl von der zeitlichen als auch der spektra- 
len Struktur des Maskierers (d.h, des verdeckenden Signals) 
und dem verdeckten Signal abhangig. 

Fig. 1 soil die Verdeckung von Tonen durch Schmalbandrausch- 
signale 1, 2, 3 bei 250 Hz, 1.000 Hz und 4.000 Hz und einem 
Schalldruckpegel von 60 dB veranschaulichen. Fig. 1 ist aus 
E. Zwicker und H. Fasti, Zur Abhangigkeit der Nachverdeckung 
von StSrimpulsdauer, Acustica, Bd. 26, S. 78 - 82, 1972, 
entnommen . 

Das menschliche Ohr kann dabei als eine Filterbank bestehend 
aus einer groBen Zahl einander iiberlappender BandpaBf ilter 
betrachtet werden. Die Verteilung dieser Filter tiber der 
Frequenz ist nicht konstant. Insbesondere ist bei tiefen 
Frequenzen die Frequenzauf losung deutlich besser als bei ho- 
hen Frequenzen. Betrachtet man den kleinsten wahrnehmbaren 
Frequenzunterschied, so betragt dieser unterhalb von ca. 500 
Hz etwa 3 Hz und steigt oberhalb von 500 Hz proportional zur 
Frequenz oder Mittenfrequenz der Frequenzgruppen an. Ordnet 
man die kleinsten wahrnehmbaren Unterschiede nebeneinander 
auf der Frequenzskala an, so erhalt man 640 wahrnehmbare 
Stufen. Eine Frequenzskala, die der menschlichen Frequenz - 
empfindung angepaBt ist, stellt die Bark-Skala dar. Sie 
unterteilt den gesamten Horbereich bis ca 15,5 kHz in 24 
Abschnitte . 

Aufgrund der ttberlappung von Filtern endlicher Steilheit 
werden leise Tonsignale in der Nachbarschaft von lauten 
Tonsignalen maskiert. So werden in Fig. 1 alle unterhalb der 
eingezeichneten Schmalbandrauschkurven 1, 2, 3 vorhandenen 
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Sinustonsignale, welche im Spektrum als einzelne Linie dar- 
gestellt werden, verdeckt, wodurch sie nicht horfoar sind. 

Die Flankensteilheit der einzelnen Verdeckungsf ilter der mo- 
dellmSBig angenommenen Filterbank im menschlichen Ohr ist 
ferner vom Schalldruckpegel des gehorten Signals und in ge- 
ringem MaBe von der Mittenfrequenz des jeweiligen Bandfil- 
ters abhangig. Die maximale Verdeckung hSngt von der Struk- 
tur des Maskierers ab und betragt bei der Verdeckung durch 
Rauschen ca. -5 dB. Bei der Verdeckung durch Sinustone ist 
die maximale Verdeckung deutlich geringer und betragt abhan- 
gig von der Mittenfrequenz -14 bis -35 dB (siehe in M.R. 
Schroeder, B.S. Atal und J.L. Hall, Optimizing digital 
speech coders by exploiting masking properties of the human 
ear, The Journal of the Acoustic Society of America, Bd. 66 
(Nr. 6), S. 1647 - 1652, Dezember 1979). 

Der zweite wichtige Effekt ist die Verdeckung im Zeitbe- 
reich, zu deren Verstandnis Fig. 2 beitragen soil. Unmittel- 
bar nach, aber auch unmittelbar vor einem lauten Schaller- 
eignis werden leisere Schallereignisse nicht wahrgenommen. 
Die zeitliche Verdeckung ist stark von der Struktur und Dau- 
er des Maskierers abhangig (siehe H. Fasti, Mithorschwellen 
als MaB fiir das zeitliche und spektrale Auf losvmgsvermogen 
des Gehors- Dissertation, FakultSt fiir Maschinenwesen und 
Elektrotechnik der Technischen Universitat MUnchen, Miinchen, 
Mai 1974) . Die Nachverdeckung kann sich insbesondere bis zu 
100 ms erstrecken. Die groBte Empf indlichkeit und damit die 
kllrzeste Verdeckung tritt bei der Maskierxing von Rauschen 
durch GauB-Impulse auf. Hierbei betragen die Vor- und die 
Nachverdeckung lediglich etwa 2 ms. 

Bei geniigend groBem Abstand vom Maskierer bzw. von 4 in Fig. 
1 gehen die Maskierungskurven in eine Ruhehorschwelle 5 
tiber. Am Beginn und Ende eines Verdeckungssignals gehen die 
Maskierungskurven der Vorverdeckung 6 bzw. der Nachver- 
deckung 7 in eine gleichzeitige Verdeckung 8 ttber. Fig. 2 
ist im wesent lichen aus E. Zwicker, Psychoakustik, Sprin- 
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ger-Verlag, Berlin Heidelberg New York, 1982 , entnominen. 

Die Vorverdeckung wird durch die unterschiedlich schnelle 
Verarbeitung von Signalen auf dem Weg vom Ohr zum Gehirn 
bzw. im Gehirn erklart. GroBe Reize, d.h. laute Schallereig- 
nisse oder Schallereignisse mit einem hohen Schalldruckpegel 
(SPL; SPL = Sound Pressure Level) , werden schneller weiter- 
gegeben als kleine. Ein lautes Schallereignis kann deshalb 
ein zeitlich davorliegendes leiseres Schallereignis gewis- 
sermaBen "uberholen" und damit verdecken. 

Die Nachverdeckung entspricht einer "Erholungszeit" der 
Schallrezeptoren und der Reizleitung, wobei insbesondere der 
Abbau von Botenstoffen an den Nervensynapsen zu nennen ware. 

Das VerdeckungsmaB Oder der Grad der Verdeckung hMngt von 
der zeit lichen und spektralen Struktur des Maskierers, d.h. 
des maskierenden Signals, ab. Die Vorverdeckung ist bei im- 
pulsartigen Maskierern am kiirzesten (etwa 1,5 ms) und bei 
Rauschsignalen deutlich langer (bis zu 15 ms) . Die Nachver- 
deckung erreicht nach 100 ms die Ruhehorschwelle. fiber die 
genaue Form der Nachverdeckungskurve finden sich unter- 
schiedliche Aussagen in der Literatur. So kann im Einzelfall 
die Nachverdeckung bei Rauschsignalen zwischen 15 bis 40 ms 
differieren. Die oben angegebenen Werte stellen jeweils Mi- 
nimalwerte ftir Rauschen dar. Neue Untersuchungen mit GauB- 
Impulsen als Maskierer zeigen, daB fiir solche Signale auch 
die Nachverdeckung im Bereich von 1,5 ms liegt (J. Spille, 
Messung der Vor- und Nachverdeckung bei Impulsen unter 
kritischen Bedingungen, Internal Report, Thomson Consumer 
Electronics, Hannover, 1992). Werden sowohl Maskierer als 
auch StSrsignale mittels eines Tief passes bandbegr enzt , so 
verlSngern sich sowohl die Vor- als auch die Nachverdeckung. 

Die zeitliche Verdeckung spielt bei der Beurteilung von 
Audiocodierverfahren eine wichtige Rolle. Wird, wie es mei- 
stens der Pall ist, blockweise gearbeitet, und befinden sich 
Anschlage im Block, so entstehen unter Umstanden Storungen 
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vor dem Anschlag, die fiber dem Nutzsignalpegel liegen. Diese 
Storungen werden eventuell durch eine Vorverdeckung mas- 
kiert. 1st diese StSrung jedoch nicht maskiert, so nennt man 
den entstehenden Effekt "Vorecho" . Vorechos werden in der 
Regel nicht getrennt vom Anschlag wahr genommen , sondern als 
eine tonmaBige Verf&rbung des Anschlags. 

Die Ruhehorschwelle (4 in Fig. 1) ergibt sich durch den Fre- 
quenzgang von AuBen- und Mittelohr und durch die ttberlage- 
rung der ins Innenohr gelangten Schallsignale mit dem bei- 
spielsweise durch die Blutstromung verursachten Grundrau- 
schen. Dieses Grundrauschen und die im Frequenzbereich nicht 
konstante Ruhehorschwelle verdecken dadurch sehr leise 
Schallereignisse. Aus Fig. 1 ist insbesondere zu sehen, daB 
ein gutes Gehor etwa einen Frequenzbereich von 20 Hz bis 18 
kHz erfassen kann. 

Die subjektiv empfundene Lautheit eines Signals hangt sehr 
stark von seiner spektralen und zeitlichen Zusammensetzung 
ab. Anteile eines Signals konnen andere Anteile desselben 
Signals verdecken, derart, daB diese nicht mehr zum Horein- 
druck beitragen. Signale nahe der Mithorschwelle (d-h. ge- 
rade eben noch wahrnehmbare Signale) werden als leiser emp- 
funden als es ihrem tatsSchlichen Schalldruckpegel ent- 
spricht. Dieser Effekt wird als "Drosselung" bezeichnet (E. 
Zwicker und R- Feldtkeller, Das Ohr als Nachrichtenempf an- 
ger, Hirzel-Verlag, Stuttgart, 1967) . 

Ferner spielen kognitive Effekte bei der Beurteilung von 
Audiosignalen eine Rolle. Insbesondere hat sich eine fiinf- 
stufige sog. w lmpairmentskala n (Impairment = Beeintr&chti- 
gung) verbreitet. Die Aufgabe von menschlichen Testpersonen 
ist es, in einem Doppelblindtest Bewertungen fiir zwei Signa- 
le abzugeben, von denen eines das Originalsignal ist, das 
nicht codiert und decodiert worden ist, wahrend das andere 
Signal ein nach einer Codierung und darauf f olgenden Decodie- 
rtmg gewonnenes Signal ist. Bei dem HSrtest exist ieren drei 
Stimuli A, B, C, wobei das Signal A immer das Ref erenzsignal 
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ist. Eine Person, die den Hortest durchfiihrt, vergleicht im- 
mer die Signale B und-C mit A, Das uncodierte Signal wird 
dabei als Referenzsignal bezeichnet, wShrend das durch Co- 
dierung und Decodierung von dem Referenzsignal abgeleitete 
Signal als Testsignal bezeichnet wird* Bei der Bewertung von 
deutlich horbaren Storungen spielen also nicht nur psycho- 
akustische Effekte sondern auch kognitive oder subjektive 
Effekte eine Rolle. 

Bei der Beurteilung von Audiosignalen durch menschliche Ho- 
rer haben kognitive Effekte erhebliche Auswirkungen auf die 
Bewertung mittels der Impairmentskala. Einzelne sehr starke 
Storungen werden von vielen Testpersonen vielfach als weni- 
ger storend als dauerhaft vorhandene Storungen empfunden. Ab 
einer bestimmten Anzahl solcher starken Storungen dominieren 
sie allerdings doch den Qualitatseindruck. Systematische Un- 
tersuchungen hierzu sind aus der Literatur nicht bekannt. 

Obwohl sich bei psychoakustischen Test die Wahrnehmungs- 
schwellen verschiedener Horer kaum unterscheiden, werden 
verschiedene Artefakte von verschiedenen Testpersonen als 
unterschiedlich schweirwiegend empfunden. Wahrend manche 
Testpersonen Beschrankungen der Bandbreite als weniger sto- 
rend empfinden als Rauschmodulationen bei hohen Frequenzen, 
ist dies bei anderen Testpersonen genau umgekehrt- 

Die Bewertungsskalen verschiedener Testpersonen unterschei- 
den sich deutlich. Viele H5rer tendieren dazu, deutlich hor- 
bare Storungen mit der Note 1 ("sehr storend") zu bewerten, 
wahrend sie mittlere Noten kaum vergeben. Andere Horer ver- 
geben haufig mittlere Noten (Thomas Sporer, Evaluating small 
impairments with the mean opinion scale - reliable or just a 
guess? In lOlnd AES-Convention , Los Angeles, 1996, 
Preprint) . 

Die DE 44 37 287 C2 offenbart ein Verfahren zur Messung der 
Erhaltung stereophoner Audiosignale und Verfahren zur Er- 
kennung gemeinsam codierter stereophoner Audiosignale. Ein 
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zu testendes Signal mit zwei Stereokanalen wird durch Co- 
dierung und anschlieBende Decodierung eines Ref erenzsignals 
gebildet. Sowohl das zu testende Signal als auch das Refe- 
renzsignal werden in den Frequenzbereich transf ormiert. Fur 
jedes Teilband des Ref erenzsignals und fur jedes Teilband 
des zu testenden Signals werden SignalkenngroBen fur das 
Ref erenz signal und fur das zu testende Signal gebildet. Die 
jeweils zu demselben Teilband gehorenden SignalkenngroBen 
werden miteinander verglichen. Aus diesem Vergleich wird auf 
die Erhaltung stereophoner Audiosignaleigenschaf ten oder die 
Storung des Stereoklangbilds bei der verwendeten Codierungs- 
technik geschlossen. Subjektive Einfliisse auf das Referenz- 
signal und auf das zu testende Signal aufgrund der tibertra- 
gungseigenschaften des menschlichen Ohrs werden in dieser 
Schrift nicht berucksichtigt. 

Die Aufgabe der vorliegenden Erfindung besteht darin, ein 
Verfahren und eine Vorrichtung fur eine gehorangepaBte Qua- 
litatsbeurteilung von Audiosignalen zu schaffen, welche 
durch eine verbesserte zeitliche Auflosung eine bessere Mo- 
dellierung der Vorgange im menschlichen Gehor erreichen, um 
von subjektiven Einfliissen unabhangiger zu werden. 

Diese Aufgabe wird durch ein Verfahren gemSB Anspruch 1 und 
durch eine Vorrichtung gemaB Anspruch 18 gelost. 

Der Erfindung liegt die Erkenntnis zugrunde, alle nichtli- 
nearen Gehoreffekte auf das Ref erenzsignal und das Testsi- 
gnal gleichermaBen zu simulieren / und einen Vergleich zur 
QualitStsbeurteilung des Testsignals sozusagen hinter dem 
Ohr f d.h. am Obergang der Gehor schnecke zum GehSrnerv, 
durchzuftlhren. Die gehorangepaBte Qua litatsbeurtei lung von 
Audiosignalen arbeitet also mittels eines Vergleichs in dem 
Gehorschneckenbereich ("Cochlear Domain"). Es werden also 
die Erregungen im Ohr durch das Testsignal bzw. durch das 
Ref erenzsignal verglichen. Dazu werden sowohl das Audiorefe- 
renzsignal als auch das Audiotestsignal durch eine Filter- 
bank in ihre spektralen Zusammensetzungen zerlegt. Durch ei- 
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ne groBe Anzahl von Filtern, welche sich frequenzmSBig tiber- 
lappen, wird eine ausreichende sowohl zeitliche aus auch 
frequenzmSBige Auflosung sichergestellt. Die Gehoreffekte 
des Ohrs werden derart berttcksichtigt, daB jedes einzelne 
Filter eine eigene Form aufweist, die anhand der AuBen- und 
Mittelohr-Obertragungsfunktion und des internen Rauschens im 
Ohr, anhand der Mittenfrequenz f m eines Filters und anhand 
des Schalldruckpegels L des zu beurteilenden Audiosignals 
bestimmt wird. Zur Reduzierung der Komplexitat und des Re- 
chenauf wands wird fur jede Filterubertragungsfunktion eine 
Betrachtung des schlimmstmoglichen Falles durchgef iihrt , wo- 
durch eine sog. Worst-Case-Erregungskurve ftir verschiedene 
Schalldruckpegel bei der jeweiligen Mittenfrequenz jedes 
Filters fur dasselbe bestimmt wird. 

Zur weiteren Reduzierung des Rechenaufwands werden Teile der 
Filterbank mit verringerter Abtastrate berechnet, wodurch 
der zu verarbeitende Datenstrom entscheidend reduziert wird. 
Aus Kompatibilitatsgrunden mit der schnellen Fourier-Trans- 
formation Oder Abwandlungen derselben, welche durch die Fil- 
terbank ausgefiihrt wird, werden lediglich Abtastraten ver- 
wendet, die sich durch den Quotienten aus der Ursprungsab- 
tastrate und einer Potenz von 2 (d.h. das 1/2-, das 1/4-, 
das 1/8-, das 1/16-, das 1/32-fache der urspriinglichen Ab- 
tast- bzw. Datenrate) ergeben. So wird immer eine einheitli- 
che Fensterl&nge der verschiedenen Filtergruppen, die mit 
einer gleichen Abtastfrequenz arbeiten r erreicht. 

SchlieBlich ist jedem Filter der Filterbank eine Modellie- 
rungseinrichtung zum Modellieren der Vor- xind Nachverdeckung 
nachgeschaltet. Die Modellierung der Vor- und Nachverdeckung 
verringert die erforderliche Bandbreite so weit, daB je nach 
Filter eine weitere Reduktion der Abtastrate, d.h. eine Un- 
terabtastung , moglich ist. Die resultierende Abtastrate in 
alien Filtern entspricht somit bei einem bevorzugten Ausftih- 
xrungsbeispiel der Erfindung einem zweiunddreiBigstel der 
Eingangsdatenrate . Diese gemeinsame Abtastrate fur alle Fil- 
terbanke ist ftir die weitere Verarbeitung Mufierst vorteil- 
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halft und notig. 

Nach der Filterbank erfolgt die Bestimmung der Verzogerung 
der Ausgangssignale der einzelnen Filter, urn eventuell vor- 
handene zeitliche Unsynchronitaten bei der Berechnung des 
Audiotestsignals bzw. des Audioreferenzsignals auszuglei- 
chen. 

Der Vergleich des Audioreferenzsignals mit dem Audiotest- 
signal wird, wie es erwahnt wurde, gewissermaBen "hinter der 
Gehorschnecke" durchgefiihrt. Die Pegeldif f erenzen zwischen 
einem Ausgangssignal eines Filters der Filterbank fiir das 
Audiotestsignal und dem Ausgangssignal des entsprechenden 
Filters der Filterbank fiir dais Audioreferenzsignal wird er- 
faBt und in eine Detektionswahrscheinlichkeit abgebildet, 
die berttcksichtigt, ob eine Pegeldif ferenz ausreichend groB 
ist, vim von dem Gehirn als solche erkannt zu werden. Die 
gehfirangepaBte Qualitatsbeurteilung gemSB der vorliegenden 
Erfindung erlaubt eine gemeinschaftliche Auswertung von Pe- 
geldif f erenzen mehrerer aneinander angrenzender Filter, urn 
ein MaB fiir eine subjektiv empfundene Storung in der Band- 
breite, die durch die gemeinsam ausgewerteten Filter defi- 
niert ist, zu erreichen. Die Bandbreite wird, um einen dem 
Ohr angepaBten subjektiven Eindruck zu er ha It en, kleiner 
oder gleich einer psychocikustischen Frequenzgruppe sein. 

Bevorzugte Ausftihrungsbeispiele der vorliegenden Erfindung 
werden nachfolgend bezugnehmend auf die beiliegenden Zeich- 
nungen detaillierter erlautert. Es zeigen: 

Fig. 1 eine Darstellung der Verdeckung von Tonen durch 
Schmalbandrauschsignale bei verschiedenen Frequen- 
zen; 

Fig. 2 das Prinzip der Verdeckung im Zeitbereich; 

Fig. 3 ein allgemeines Blockdiagramm eines Audio-MeBsy- 
stems 
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Fig. 4 ein Blockdiagramm der Vorrichtung zur gehorangepaB- 
ten Qualitatsbeurteilung von Audiosignalen gemaB 
der vorliegenden Erfindung; 

Fig. 5 ein Blockdiagramm einer Filterbank aus Fig. 4; 

Fig. 6 eine beispielhafte Darstellung zur Verdeutlichung 
der Konstruktion eines Verdeckungsf i Iters; 

Fig. 7 eine Darstellung zur Verdeutlicheung der Konstruk- 
tion eines Verdeckungsf ilters unter Beriicksichti- 
gung der AuBen- und Mittelohr-Ubertragungsf unktion 
und des internen Rauschens; 



Fig. 8 ein detailliertes Blockdiagramm der Vorrichtung zur 
gehorangepaBten Qualitatsbeurteilung von Audiosi- 
gnalen gemaB der vorliegenden Erfindung; 

Fig. 9 eine Darstellung beispielhafter Filterkurven mit 
verschiedenen Abtastraten; 

Fig. 10 eine Darstellung der Schwellenf unktion zur Abbil- 
dung von Pegeldiff erenzen in einem Spektralab- 
schnitt auf die Detektionswahrscheinlichkeit; 



Fig. 11 eine graphische Darstellung der lokalen Detektions- 
wahrscheinlichkeit eines beispielhaf ten Audiotest- 
signals; und 



Fig. 12 eine graphische Darstellung der Frequenzgruppen- 
Detektionswahrscheinlichkeit des beispielhaften 
Audiotestsignals, das in Fig. 11 verwendet wurde. 



Fig. 3 zeigt ein allgemeines Blockdiagramm eines Audio-MeB- 
systems, das in seinen Grundziigen der vorliegenden Erfindung 
entspricht. Einem MeBverfahren wird einerseits ein unverar- 
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beitetes Ausgangssignal einer Tonsignalquelle (Referenz) und 
andererseits ein aus einer Obertragungsstrecke, wie z.B. ei- 
ner Audio-Codierer/Decodierer-Einrichtung (oder "Audio-Co- 
dec"), kommendes, zu bewertendes Signal (Test) zugefiihrt. 
Das MeBveirfahren berechnet daraus verschiedene KenngroBen, 
die die Qualitat des Tests igna Is im Vergleich zum Referenz- 
signal beschreiben. 

Eine Grundidee beim erf indungsgemaBen Verfahren zur Quali- 
tat sbeurteilurig von Audiosignalen besteht darin, daB eine 
genaue gehorangepaBte Analyse nur moglich ist, wenn gleich- 
zeitig die zeitliche und die spektrale Auflosung moglichst 
hoch sind. Bei alien bekannten MeBverfahren ist entweder die 
zeitliche Auflosung durch die Verwendung einer diskreten 
Fourier-Transformation (DFT) sehr beschrankt (Blocklange in 
der Regel 10,67 ms bis 21,33 ms) oder die spektrale Auflo- 
sung wurde durch eine zu kleine Anzahl von Analysekan£len zu 
stark verringert. Das erf indungsgemSBe Verfahren zur Quali- 
tat sbeurtei lung von Audiosignalen liefert eine hohe Anzahl 
(241) von Analysekan&len bei einer hohen zeitlichen Auflo- 
sung von 0,67 ms. 

Fig. 4 zeigt ein Blockdiagramm der Vorrichtung zur gehoran- 
gepaBten Qualitatsbeurteilung von Audiosignalen gemaB der 
vorliegenden Erfindung, die das Verfahren der vorliegenden 
Erfindung ausftihrt. Das Verfahren zur gehdrangepafiten Quali- 
tatsbeurteilung von Audiosignalen oder zur objektiven Audio- 
signalbewertung (OASE; OASE = Objectiv Audio Signal Evalua- 
tion) erzeugt zunachst eine interne Darstellung eines Audio- 
refer enz signals 12 bzw. eines Audiotestsignals 14. Zu diesem 
Zweck wird das Audioreferenzsignal 12 in eine erste Filter- 
bank 16 eingespeist, welche das Audioreferenzsignal gemaB 
seiner spektralen Zusammensetzung in Audioref erenzteilsigna- 
le 18 zerlegt. Analog dazu wird das Audiotestsignal 14 in 
eine zweite Filterbank 20 eingespeist, welche wiederum aus 
dem Audiotestsignal 14 gemaB der spektralen Zusammensetzung 
desselben eine Mehrzahl von Audiotestteilsignalen 22 er- 
zeugt. Eine erste Modellierungseinrichtung 24 bzw. eine 
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zweite Modellierungseinrichtung 26 zur Modellierung der 
zeitlichen Verdeckung "modelliert den EinfluB der bereits 
beschriebenen Verdeckung im Zeitbereich beztiglich jedes Au- 
dioreferenzteilsignals 18 bzw. jedes Audiotestteilsignals 
22. 

An dieser Stelle sei angemerkt, daB die gehorangepaBte Qua- 
litStsbeurteilung von Audiosignalen gemaB der vorliegenden 
Erfindung ebenfalls durch eine einzige Filterbank Oder durch 
eine einzige Modellierungseinrichtung zur Modellierung der 
zeitlichen Verdeckung ausgeftihrt werden kann. Lediglich aus 
Darstellungsgriinden sind ftir das Audioref erenzsignal 12 bzw. 
filr das Audiotestsignal 14 jeweils eigene Einrichtungen ge- 
zeichnet. Wenn zur spektralen Zerlegung des Audioref erenz- 
signals und des Audiotestsignals eine einzige Filterbank 
verwendet wird, muB beispielsweise wahrend der Verarbeitung 
des Audiotestsignals die bereits vorher ermittelte spektrale 
Zusammensetzung des Audioref erenzsignals zwischengespeichert 
werden konnen. 

Die beztiglich der zeitlichen Verdeckung modellierten Audio- 
ref erenzteilsignale 18 bzw. Audiotestteilsignale 22 werden 
einer Auswertungseinrichtung 28 zugefuhrt, welche eine nach- 
f olgend beschriebene Detektion und Gewichtung der erhaltenen 
Ergebnisse durchfuhrt. Die Auswertungseinrichtung 28 gibt 
eines oder eine Mehrzahl von Modellausgangswerten MAW1 . . . 
MAWn aus, die auf verschiedene Arten und Weisen Unterschiede 
zwischen dem Audioreferenzsignal 12 und dem von dem Audiore- 
ferenzsignal 12 durch Codierung und Decodierting abgeleiteten 
Audiotestsignal 14 darstellen. Wie es nachf olgend beschrie- 
ben wird, ermoglichen die Modellausgangswerte MAW1 ... MAWn 
eine frequenz- und zeitselektive Qualitatsbeurteilung des 
Audiotestsignals 14. 

Die interne Darstellung des Audioreferenzsignals 12 bzw. des 
Audiotestsignals 14, die der Auswertung in der Auswertungs- 
einrichtung 28 zugrunde liegen, entsprechen den Informatio- 
nen, die vom Ohr iiber den Hornerv dem menschlichen Gehirn 
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iibermittelt werden. Durch die Ausgabe mehrerer Modellaus- 
gangswerte MAW1 . . . MAWn ist eine detail liertere Aussage 
tiber den qualitativen und auch subjektiven Eindruck moglich, 
als wenn lediglich ein einzelner Modellausgangswert ausgege- 
ben werden wtirde. Insbesondere subjektive Unterschiede in 
der Gewichtung verschiedener Artefakte konnen sich damit we- 
niger storend auswirken. 

Fig. 5 zeigt den Aufbau der ersten Filterbank 16 bzw. der 
.zweiten Filterbank 20 , falls zvei getrennte Filterbanken 
verwendet werden. Falls lediglich eine Filterbank fiir die 
Verarbeitung beider Signale in Kombination mit einer Zwi- 
schenspeicherung verwendet wird, stellt Fig. 5 den Aufbau 
der einzigen verwendeten Filterbank dar. In einen Signalein- 
gang 40 wird ein in seine spektrale Zusammensetzung zu zer- 
legendes Audiosignal eingegeben, um eine Mehrzahl von Teil- 
signalen 18, 22 am Ausgang der Filterbank 16 bzw. 20 zu er- 
halten. Die Filterbank 16, 20 ist in eine Mehrzahl von Un- 
terf i It erbanken 42a bis 42f gegliedert. Das an dem Signal- 
eingang 40 anliegende Signal lauft direkt in die erste Un- 
terf ilterbank 42a. Um in die zweite Unterf ilterbank 42b zu 
gelangen, wird das Signal mittels eines ersten TiefpaBfil- 
ters 44b gefiltert und mittels einer ersten Dezimiereinrich- 
tung 46 bearbeitet, damit das Ausgangssignal der Dezimier- 
einrichtung 46b eine Datenrate von 24 kHz besitzt. Die De- 
zimiereinrichtung 46 entfemt also jeden zweiten Wert des an 
dem Signaleingang 40 anliegenden Datenstroms, um den Rechen- 
aufwand und die zu verarbeitende Datenmenge der Filterbank 
wirksam zu ha 1 bier en. Das Ausgangssignal der ersten Dezi- 
miereinrichtung 46b wird in die zweite Unterf ilterbank ein- 
gespeist. Weiterhin wird dasselbe in ein zweites TiefpaB- 
filter 44c und in eine darauf f olgende zweite Dezimierein- 
richtung 46c eingespeist, um die Datenrate desselben wieder 
zu halbieren. Die dann entstehende Datenrate betrSgt 12 kHz. 
Das Ausgangssignal der zweiten Dezimiereinrichtung 46c wird 
wiederum in die dritte Unterf ilterbank 42c eingespeist. Auf 
&hnliche Weise werden die Eingangssignale fiir die anderen 
Filterbanken 42d, 42e und 42f erzeugt, wie es in Fig. 5 dar- 
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gestellt ist. Die Filterbank 16, 20 implementiert somit eine 
sogenannte Multirate-Struktur , da sie eine Mehrzahl von Un- 
t erf ilterbanken 42a - 42f aufweist, welche mit mehreren 
("multi") jeweils unterschiedlichen Abtastraten ("rates") 
arbeiten. 

Jede Unterf ilterbank 42a - 42b setzt sich wiederum aus einer 
Mehrzahl von BandpaBf iltern 48 zusammen. Bei einem bevorzug- 
ten Ausftihrungsbeispiel der vorliegenden Erfindung enthMlt 
die Filterbank 16, 20 241 einzelne BandpaBf ilter 48, die in 
einem gleichmaBigen Raster auf der Bark-Skala angeordnet 
sind, wobei sich ihre Mittenfrequenzen um 0,1 Bark unter- 
scheiden. Die Einheit Bark ist fiir Fachleute auf dem Gebiet 
der Psychoakustik bekannt und beispielsweise in E. Zwicker, 
Psychoakustik, Springer-Verlag, Berlin Heidelberg New York, 
1982, beschrieben. ' 

Fig. 9 zeigt einige beispielhafte Filterkurven mit den 
Abtastraten 3 kHz, 12 kHz und 48 kHz. Die linke Gruppe von 
Filterkurven in Fig. 9 entspricht der Abtastrate von 3 kHz, 
wahrend die mittlere Kurve einer Abtastrate von 12 kHz 
entspricht und die rechte Gruppe fiir Abtastrate von 48 kHz 
gilt. 

Prinzipiell ergibt sich die minimale Abtastrate fiir jedes 
einzelne BandpaBf ilter 28 aus dem Punkt, an dem seine obere 
Flanke die Dampfung -100 dB in Fig. 9 unterschreitet. Aus 
Grtinden der Einfachheit wurde jedoch nur immer die nachst- 
hohere Abtastrate fiir jedes BandpaBf ilter 48 gewahlt, welche 
der Formel f A = 2" n • 48 kHz erfiillt, wobei f A die Daten- 
oder Abtastrate des einzelnen betrachteten BandpaBf ilter s 48 
ist, und der Index n von 1 bis 5 lauft, wodurch sich die in 
Fig. 9 gezeigten Gruppierungen ergeben. Analog dazu ergibt 
sich die Gliederung der Filterbank 16, 20 in die fiinf Unter- 
f ilterbanken FBI bis FB5. Alle Filter, die auf der gleichen 
Abtastrate arbeiten, kSnnen eine gemeinsame Vorverarbeitung 
durch das jeweilige TiefpaBf ilter 44b bis 44f und die jewei- 
lige Dezimiereinrichtung 46b bis 46f nutzen. Das Zustande- 
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kommen der einzelnen Filtererregungskurven bzw. Filterfunk- 
tionen wird nachfolgend detailliert dargestellt. 

Alle in Fig- 5 gezeigten BandpaBf ilter 48 sind bei einem 
bevorzugten Ausfiihrungsbeispiel mittels digitaler FIR-Filter 
realisiert, von denen jedes FIR-Filter 128 Filterkoef f izien- 
ten aufweist, die auf fiir Fachleute bekannte Art und Weise 
errechnet werden konnen, wenn die Filterkurve bzw. die Fil- 
terfunktion bekannt ist. Dies kann durch eine schnelle 
Faltung erreicht werden, wobei alle Filter von FBO (42a) und 
LP1 (44b) (LP = Low Pass = TiefpaB) gemeinschaftlich eine 
FFT zur Berechnung der Filter benutzen konnen. Die Grenzfre- 
quenzen der TiefpaBf ilter 44b bis 44f mussen gewahlt werden, 
um zusammen mit der fiir die jeweilige Unt erf ilter bank maB- 
geblichen Abtastrate keine Verletzung des Abtasttheorems zu 
bewirken. 

An dieser Stelle sei angemerkt, daB das Ausgangs signal 1, 2, 

, 241 jedes Filters, d.h. ein Testteilsignal bzw. Refe- 

renzteilsignal, eine Bandbreite aufweist, die durch das ent- 
sprechende Filter, das das Teilsignal erzeugt hat, definiert 
ist. Diese Bandbreite eines einzigen Filters wird auch als 
Spektralabschnitt bezeichnet. Die Mittenfrequenz eines Spek- 
tralabschnitts entspricht also der Mittenfrequenz des ent- 
sprechenden Bandf ilters, wahrend die Bandbreite eines Spek- 
tralabschnitts gleich der Bandbreite des entsprechenden Fil- 
ters ist. Somit ist es of fensichtlich, daB sich die einzel- 
nen Spektralabschnitte bzw. Bandf ilterbandbreiten uber lap- 
pen, da die Spektralabschnitte breiter als 0,05 Bark sind. 
(0,1 Bark ist der Abstand der Mittenfrequenz eines Bandfil- 
ters zum nSchsten Bandf ilter.) 

Fig. 6 stellt die Konstruktion eines Verdeckungs filters 48 
beispielhaft an dem BandpaBf ilter mit der Mittenfrequenz f m 
von 1.000 Hz dar. An der Ordinate von Fig- 6 ist die Filter- 
dampfung in dB aufgetragen, wahrend die Abszisse die links- 
bzw. rechtsseitige Frequenzabweichung von der Mittenfrequenz 
f m in Bark auftragt. Der Parameter in Fig. 6 ist der Schall- 
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druckpegel eines durch das Filter gefilterten Audiosignals. 
Der Schalldruckpegel des gefilterten Audiosignals kann sich 
von 0 dB bis zu 100 dB erstrecken. Wie es bereits erwShnt 
wurde, hangt die Filter form eines modellmaBig gesehenen 
Bandfilters des menschlichen Ohrs von dem Schalldruckpegel 
des empfangenen Audiosignals ab- Wie es in Fig. 6 zu sehen 
ist, ist die linke Filterflanke bei hohen Schalldruckpegeln 
relativ flach und wird zu kleineren Schalldruckpegeln hin 
steiler. Dagegen geht die steilere Flanke bei kleineren 
Schalldruckpegeln schneller in die Ruhehorschwelle xiber, die 
in Fig. 6 die geraden Fortsetzungen der einzelnen beispiel- 
haften Filterf lanken sind. 

Die Abhangigkeit vom Schalldruckpegel des Audiosignals konn- 
te durch eine Umschaltung zwischen verschiedenen Koeffizien- 
tensatzen der digitalen Bandfilter 48 der Filterbank er- 
reicht werden. Dies hatte neben einer sehr hohen Komplexitat 
aber auch den Nachteil, daB das Verfahren sehr anfallig ge- 
gen Veranderungen der Abhor lautstarke werden vrtirde. (Siehe 
Kh. Brandenburg und Th. Sporer. "NMR" und "Masking Flag": 
Evaluation of quality using perceptual criteria. In Procee- 
dings of the 11th International Conference of the AES, Port- 
land, 1992). 

Bei der gehorangepaBten Qualitatsbeurteilung von Audiosigna- 
len gemaB der vorliegenden Erfindung wurde deshalb ein ande- 
rer Weg gewahlt. Aus den Filterkurven, die sich fiir unter- 
schiedliche Schalldruckpegel ergeben wtirden, wird eine Kuirve 
50 fiir den schlechtesten Verdeckungsf all oder "Worst-Case" 
gebildet. Die Worst-Case-Kurve 50 ergibt sich bei einer 
bestimmten Frequenzabweichung von der Mittenfrequenz f m aus 
dero Minimalwert aller Schalldruckpegelkurven in einem be- 
stimmten Nennschalldruckpegelbereich, der sich beispiels- 
weise von 0 dB bis 100 dB erstrecken kann. Die Worst-Case- 
Kurve erhSlt so nahe der Mittenfrequenz eine steile Flanke 
und wird mit wachsendem Abstand zur Mittenfrequenz flacher, 
wie es durch die Kurve 50 in Fig. 6 angedeutet ist. Wie es 
ebenfalls aus Fig. € zu sehen ist, ist die beziiglich der 
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Mittenfrequenz f m rechte Filterflanke eines Bandpaflfi Iters 
48 abgesehen von der -Ruhehorschwelle nur gering von dem 
Schalldruckpegel des gefilterten Audiosignals abhangig. 
D.h., daB die Neigungen der rechten Kurvenf lanken fur einen 
Schalldruckpegel von 0 dB bis zu einem Schalldruckpegel von 
100 dB nahezu gleich sind. 

Bei der gehorangepaBten Qua litatsbeurtei lung von Audiosigna- 
len gemMB der vorliegenden Erf indung wird ferner der Einf luB 
der AuBen- und Mittelohrubertragungsfunktion und des inter- 
nen Rauschens, das beispielsweise durch den Blutstrom im Ohr 
verursacht wird, berttcksichtigt. Die sich daraus ergebenden 
Kurven fur einzelne Schalldruckpegel von 0 dB bis 100 dB 
sind in Fig. 7 dargestellt. Im Gegensatz zu Fig. 6 ist bei 
Fig. 7 an der Abszisse der Spektralbereich in Hz aufgetragen 
und nicht die Frequenzskala in Bark, welche auch Tonheits- 
skala bezeichnet wird. Mathematisch formuliert kann die 
AuBen- und Mittelohr-tibertragungsfunktion und das interne 
Rauschen des Ohrs durch folgende Gleichung modelliert wer- 
den: 

= _6.5 - e-°**<^- 3 - 3 > 2 + imidin)^ 8 + 0-5 ' 10- 3 doobr) 4 

Die GroBe a 0 (f) stellt die Dampfung des Ohrs uber dem gesam- 
ten Frequenzbereich dar und ist in dB angegeben. 

Die Verdeckungskurven oder Filterkurven fur die einzelnen 
BandpaBf ilter 48 konnen durch folgende mathematische Glei- 
chung abhSngig von der Mittenfrequenz f m und abhSngig von 
dem Schalldruckpegel L modelliert werden: 

Die einzelnen in der Gleichung verwendeten GroBen sind im 
nachfolgenden aufgestellt: 

f m = Mittenfrequenz eines BandpaBf ilters; 
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Ab = Frcquenzunterschied in Bark zwischen der Mittenfrequenz 
f m des Filters und- einer Testf requenz ; 

f m = Mittenfrequenz eines BandpaBfi Iters; 

L = Schalldruckpegel des gefilterten Audiosignals; 

Abrundungsfaktor C 2 = 0,1; 

Steilheit der unteren Flanke S ± = 27 (dB/Bark) ; 

Steilheit der oberen Flanke: 
S2( f m^ L ) = 24 + 230Hz/f m - 0,2L/dB; 

Konstante C^: 

Ci(f m ,L) = (Si " S 2 (f mf L)/2 • ^C 2 /(S 1 ■ S 2 (f ro ,L)) , ; 
Konstante A 0 (f m ,L) ="V C 2 ' s l * s 2( f m' L )'' 

Die Umrechungsgleichung von der Frequenzskala in Hertz zur 
Frequenzsskala in Bark lautet folgendermaBen: 

""IS™ = 13 • ™«™( 0 '™idin) + 35 • ^^((Tsokr) 2 ) 

Wird in die Verdeckungskurve A eine virtuelle Ruhehorschwel- 
le bei -10 dB miteinbezogen, so ergibt sich eine Grenzver- 
deckungskurve welche folgendermaBen gegeben ist: 

A iim (A6, / m , L) = max (A(Ab y / m , L), — L - lOdB) 

Der Obergang von der Bark-Skala auf die Hertz-Skala fiir die 
Verdeckungskurve inklusive der virtuellen RuhehSrschwelle 
zusammen mit der Einbeziehting der AuBen- und Mittelohr-Ober- 
tragungsfunktion A 0 (f) liefert die erweiterte Grenz ver- 
deckungskurve &n m , die noch von dem Schalldruckpegel des 
Audiosignals abhSngt: 

A«m(/, /m, L) = A Um (Hz2BarkUX- Hz2Bark{j ), f m , L) - Oo(/) 
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Wie es bereits erwahnt -wurde, ist es zu aufwendig, fUr jeden 
Schalldruckpegel eine eigene Filterkurve bzw. Verdeckungs- 
kurve zu wahlen, weshalb eine Worst-Case-Kurve errechnet 
wird. Die Worst-Case-Kurve A wc (f, f m ) gibt die letztendlich 
verwendete Dampfung eines Filters mit der Mittenfrequenz f m 
bei der aktuellen Frequenz f in Hz an. Die mathematische 
Fonnulierung der Worst-Case-Kurve A wc lautet f olgendermaBen: 

fm) = min(A /im (/, / m> L); -3 dB < L < 120 dB) 

Fig. 8 zeigt ein Blockdiagramm der Vorrichtung bzw. des Ver- 
fahrens zur gehorangepaBten Qua litatsbeurtei lung von Audio- 
signalen gemaB der vorliegenden Erfindung. Wie es bereits iro 
Zusammenhang mit Fig. 5 beschrieben worden ist, wird in die 
Filterbank 16 das Audioreferenzsignal 12 eingespeist, urn 
Audioreferenzteilsignale 18 zu erzeugen. Analog dazu wird 
das Audiotestsignal 14 in die Filterbank 20 eingespeist, urn 
Audiotestteilsignale 22 zu erzeugen. An dieser Stelle sei 
angemerkt, daB es aus Fig. 6 und Fig. 7 ersichtlich ist, daB 
sich die einzelnen Filterkurven der BandpaBf ilter 48 jeweils 
uberlappen, da die Mittenfrequenzen der einzelnen Filter je- 
weils lediglich um 0,1 Bark beabstandet sind. Jedes BandpaB- 
filter 48 soli somit die Erregung einer Haarzelle auf der 
Basilarmembran des inenschlichen Ohrs modellieren. 

Die Ausgangssignale der einzelnen BandpaBf ilter der Filter- 
bank 16 bzw. der Filterbank 20, welche einerseits die Audio- 
referenzteilsignale 18 bzw. die Audiotestteilsignale 22 
sind, werden in jeweilige Modellierungseinrichtungen 24 bzw. 
26 eingespeist, welche die zeitliche Verdeckung, die Ein- 
gangs beschrieben worden ist, modellieren sollen. Die Model- 
lierungseinrichtungen 24, 26 dienen der Modellierung der Ru- 
hehorschwelle und der Nach verdeckung . Die Ausgangswerte der 
Filterbank werden quadriert und zu denselben wird ein kon- 
stanter Wert fiir die Ruhehorschwelle addiert, da die Fre- 
quenzabhangigkeit der Ruhehorschwelle bereits in der Filter- 
bank beriicksichtigt worden ist, wie es vorher erlautert wur- 
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de. Ein rekursives Filter mit einer Zeitkonstante von 3 ms 
glattet das Ausgangssignal. Daraufhin folgt ein nichtlinea- 
res Filter, welches einerseits als Integrator die uber die 
Dauer eines Schallereignisses auflaufende Energie aufinte- 
griert, und welches andererseits den exponentiellen Abfall 
der Erregung nach dem Ende eines Schallereignisses model- 
liert. Einzelheiten des Aufbaus der Modellierungseinrichtun- 
gen 24 und 26 sind in M. Karjalainen, A new auditory model 
for the evaluation of sound quality of audio system, Pro- 
ceedings of the ICASSP, Seiten 608 - 611, Tampa, Florida, 
Marz 1985, IEEE, beschrieben. Es sei angemerkt, daB diese 
Modellierung der zeitlichen Verdeckung die Bandbreite in 
alien Filterbandern fiir alle BandpaBf ilter 48 so weit redu- 
ziert, daB ein weiterer Unterabtastschritt moglich ist, 
durch den alle Bander auf die gleiche Abtastrate von 1,5 kHz 
gebracht werden konnen. 

Die Ausgangssignale der Modellierungseinrichtungen 24, 26 
werden anschlieBend in Detektionsberechnungseinrichtungen 52 
eingespeist, deren Funktion im nachfolgenden erlautert wird. 
Wie es in Fig. 8 gezeigt ist, werden in die Detektionsbe- 
rechnungseinrichtung 52 fiir das erste BandpaBf ilter mit der 
Nr. 1 das Audioreferenzteilsignal, das aus dem BandpaBf ilter 
mit der Nr. 1 ausgegeben wird, und das Audiotestteilsignal, 
das aus dem BandpaBf ilter Nr. 1 der Filterbank fiir das Au- 
diotestsignal ausgegeben wird, eingespeist. Die Detektions- 
berechnungseinrichtung 52 bildet zum einen eine Differenz 
zwischen diesen beiden Pegeln und bildet zum anderen den 
Pegelunterschied zwischen dem Audioreferenzteilsignal und 
dem Audiotestteilsignal in eine Detektionswahrscheinlichkeit 
ab. Die Erregungen in Filterbandern 48 mit gleicher Mitten- 
frequenz f m vom Audioreferenzsignal und vom Audiotestsignal 
werden also subtrahiert und mit einer Schwellenfunktion ver- 
glichen, die in Fig. 10 dargestellt ist. Diese in Fig. 10 
dargestellte Schwellenfunktion bildet den Absolutbetrag der 
Differenz in dB auf eine sog. "lokale Detektionswahrschein- 
lichkeit" ab. Die eigentliche Detektionsschwelle fiir das 
menschliche Gehirn betragt 2,3 dB. Es ist jedoch wichtig, 



^2. 



WO 98/23130 



PCT/EP97/05446 



anzumerken, daB urn die eigentliche Detektionsschwelle von 
2,3 dB eine gewisse -Unsicherheit der Detektion auftritt, 
wesvegen die in Fig. 10 gezeigte Wahrscheinlichkeitskurve 
verwendet wird. Eine Pegeldif f erenz von 2,3 dB wird auf eine 
Detektionswahrscheinlichkeit von 0,5 abgebildet. Die ein- 
zelnen Detektionsberechnungseinrichtungen 52, die jeweils 
Bandpafif iltern 48 zugeordnet sind, arbeiten alle parallel 
zueinander, wobei sie ferner auf zeitlich serielle Art und 
Weise jede Pegeldif f erenz in eine Detektionswahrscheinlich- 
keit Pi ft abbilden. 

An dieser Stelle sei angemerkt, daB die gehorangepaBte Qua- 
litMtsbeurteilung von Audiosignalen im Zeitbereich arbeitet, 
wobei mittels digitaler Filter in der Filterbank die zeit- 
diskreten Eingangssignale des Audioref erenzsignals 12 und 
des Audiotestsignals 14 sequentiell verarbeitet werden. So- 
mit ist es of fensichtlich, daB die Eingangssignale fur die 
Detektionsberechnungseinrichtungen 52 ebenfalls ein seriel- 
ler, zeitlicher Datenstrom sind. Die Ausgangssignale der 
Detektionsberechnungseinrichtungen 52 sind somit ebenfalls 
zeitlich serielle Datenstrome, die fiir jeden Frequenzbereich 
des entsprechenden BandpaBfi Iters 48 zu jedem Zeitpunkt bzw. 
Zeitschlitz die Detektionswahrscheinlichkeit darstellen. Ei- 
ne niedrige Detektionswahrscheinlichkeit einer speziellen 
Detektionsberechnungseinrichtung 52 in einem bestimmten 
Zeitschlitz ISBt die Beurteilung zu, daB das von dem Audio- 
referenzsignal 12 durch Codierung und Decodierung abgelei- 
tete Audiotestsignal 14 in dem speziellen Frequenzbereich 
und zu dem speziellen Zeitpunkt einen Codierungsfehler auf- 
weist, der wahrscheinlich vom Gehim nicht erfaBt werden 
wird. Eine groBe Detektionswahrscheinlichkeit sagt hingegen 
aus, daB das menschliche Gehirn wahrscheinlich einen Co- 
dierungs- bzw. Decodierungsfehler des Audiotestsignals er- 
fassen wird, da das Audiotestsignal in' dem speziellen Zeit- 
schlitz und in dem speziellen Frequenzbereich einen horbaren 
Fehler aufweist. 

Die Ausgangssignale der Detektionsberechnungseinrichtungen 
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52 konnen wahlweise in eine Globaldetektionseinrichtung 54 
Oder in eine Mehrzahl-von Gruppendetektionseinrichtungen 56 
eingespeist werden. Die Globaldetektionseinrichtung 54 hin- 
gegen gibt eine globale Detektionswahrscheinlichkeit aus, 
welche fiir ein bestimmtes international verwendetes Test- 
signal in Fig. 11 gezeigt ist. Im oberen Diagramm von Fig. 
11 ist als Ordinate die Frequenz in Bark eingetragen, wSh- 
rend die Abszisse die Zeit in ms wiedergibt. In dem unteren 
Diagramm ist einer speziellen Schattierung des oberen Dia- 
gramms eine bestimmte Detektionswahrscheinlichkeit in Pro- 
zent zugeordnet. WeiBe Flachen im oberen Diagramm stellen 
vom Gehirn hundertprozentig erfaBbare Codierungs- bzw. De- 
codierungsfehler dar. Das verwendete Ref erenzsignal ist in 
der Technik bekannt und findet sich auf der CD SQAM (SQAM = 
Sound Quality Assessment Material = TonqualitStsbeurtei- 
lungsmaterial) auf der Spur 10 und wird SQAM, Track 10, 
bezeichnet. Hieraus word ein absichtlich fehlerhaft codier- 
tes bzw. decodiertes Tonsignal gewonnen, das sich ergibt, 
wenn ein zweigestrichenes a auf einem Violoncello gespielt 
wird und absichtlich fehlerhaft codiert und decodiert wird. 
Die Lange desselben betrSgt 2,7 Sekunden, wobei jedoch in 
Fig. 11 und ebenso auch in Fig. 12 lediglich die ersten 1,2 
Sekunden des Beispielsignals graphisch dargestellt sind. 

Die Gruppendetektionseinrichtungen 56 arbeiten folgender- 
maBen. Zuerst bilden sie aus den in dieselben eingespeisten 
Detektionswahrscheinlichkeiten Pi t die Gegenwahrscheinlich- 
keiten pg^ t ~ 1 ~ Pi f t e i nes Zeitschlitzes t. Die Gegen- 
wahrscheinlichkeit pg ist ein MaB dafur, daB in einem Zeit- 
schlitz t keine Stdrung erfaBt werden kann. Werden nun die 
Gegenwahrscheinlichkeiten der Pegeldif ferenzen von mehreren 
BandpaBfiltern multipliziert, wie es durch das Produktsymbol 
in Fig. 8 dargestellt ist, so ergibt sich aus der Gegenwahr- 
scheinlichkeit der durch die Produktbildung entstandenen Ge- 
genwahrscheinlichkeit wiederum die globale Detektionswahr- 
scheinlichkeit des Zeitschlitzes, wenn die Ausgangssignale 
der Detektionsberechnungseinrichtungen 52 alle in die Glo- 
baldetektionseinrichtung 54 eingespeist werden, wie es in 
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Fig. 8 gezeigt ist. Wird diese Detektionswahrscheinlichkeit 
fiber der Zeit gemittelt, so erhalt man die mittlere globale 
Detektionswahrscheinlichkeit. Eine genauere Aussage tiber die 
Qualitat des Audiotestsignals bietet allerdings ein Histo- 
gramm, welches angibt, in wieviel Prozent der Zeitschlitze 
die globale Detektionswahrscheinlichkeit groBer als 10%, 
20%, , 90% ist. 

Fig. 11 zeigt, wie es bereits erwShnt wurde, die lokale De- 
tektionswahrscheinlichkeit, wenn direkt die Ausgangssignale 
der Detektionsberechnungseinrichtungen graphisch dargestellt 
werden. Es ist deutlich zu sehen, daB im unteren Frequenz- 
bereich etwa unterhalb 5 Bark (ca 530 Hz) und oberhalb von 2 
Bark (200 Hz) im Zeitbereich von etwa 100 ms bis 1.100 ms 
Codierungs- bzw. Decodierungsf ehler des Audiotestsignals vom 
Gehirn mit sehr hoher Wahrscheinlichkeit detektiert werden. 
Zusatzlich ist eine kurze Storung bei 22 Bark zu sehen. 

Die Storungen werden in der graphischen Darstellung deutli- 
cher, wenn statt der lokalen Detektionswahrscheinlichkeit, 
welche die Ausgaben der Detektionsberechnungseinrichtungen 
einrichtung 52 sind, eine Frequenzgruppendetektionswahr- 
scheinlichkeit gewahlt wird, welche durch die Gruppendetek- 
tionseinrichtungen 56 berechnet wird. Die Gruppendetekti- 
onswahrscheinlichkeit stellt ein MaB daftir dar, daB in dem 
eine Frequenzgruppe uiafassenden Bereich um ein Filter k eine 
St8r\ing wahrnehmbar ist. 

Bei einem bevorzugten AusfUhrungsbeispiel der vorliegenden 
Erf indung werden jeweils zehn benachbarte lokale Detektions- 
weihrscheinlichkeiten zusaromengef aBt . Da zehn benachbarte 
Bandf ilter jeweils um 0,1 Bark voneinander beabstandet sind, 
entspricht die Zusammengruppierung von zehn benachbarten 
Detektionswahrscheinlichkeiten einem Frequenzbereich von 1 
Bark. Es ist sinnvoll, die Zusammengruppierung benachbarter 
Detektionswahrscheinlichkeiten derart zu wShlen, daB sich 
Frequenzbereiche ergeben, die mit den psychoakustischen Fre- 
quenzgruppen im wesentlichen iiber e ins timmen. Dadurch kann 
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auf vorteilhafte Weise die Frequenzgruppenbildung des 
menschlichen Ohres simuliert werden, um einen eher subjekti- 
ven Hbreindruck von Storungen ebenfalls graphisch anzeigen 
zu konnen. Beim Vergleich von Fig- 12 mit Fig. 11 stellt 
sich heraus, daB eine gruppenweise Zusammenf assung der De- 
tektionswahrscheinlichkeiten offenbart, daB auch bei hoheren 
Frequenzen als in Fig* 11 wahrscheinlich Codierungs- bzw. 
Decodierungsfehler des Audiotestsignals gehbrt werden kon- 
nen. Die Gruppendetektion, welche in Fig. 12 gezeigt ist, 
liefert also eine realistischere Qualitatsbeurteilung von 
Audiosignalen als die lokale Detektion in Fig. 11, da hier 
die Frequenzgruppenbildung im menschlichen Ohr simuliert 
wird. Die Unterschiede nebeneinander liegender Filteraus- 
gangswerte (wobei die Unterschiede kleiner oder gleich einer 
Frequenzgruppe gewahlt werden) , werden also zusammen ausge- 
wertet und ergeben ein MaB fur die subjektive Storung in dem 
entsprechenden Frequenzbereich. 

Alternativ kann die Frequenzachse in drei Abschnitte (unter 
200 Hz, 200 Hz bis 6.500 Hz, ttber 6.500 Hz) unterteilt wer- 
den. Die Pegel des Audioreferenzsignals bzw. des Audiotest- 
signals konnen ebenfalls in drei Abschnitte unterteilt wer- 
den (Stille; leise: bis 20 dB; laut: iiber 20 dB) . Somit er- 
geben sich neun verschiedene Typen, denen ein Filterabtast- 
wert angehoren kann. Zeitabschnitte, in denen alle Filter- 
ausgangswerte beider Eingangssignale dem Typ Stille angeho- 
ren, mussen nicht weiter betrachtet werden. Aus den iibrigen 
sechs werden Mafie filr die Detektionswahrscheinlichkeit des 
Unterschieds zwischen den Eingangssignalen ftir jeden Zeit- 
schlitz bestimmt, wie es oben erwahnt wurde. ZusStzlich zu 
der Bestimmung der Detektionswahrscheinlichkeit kann auch 
eine sog. Storlautheit definiert werden, die ebenfalls mit 
der Pegeldifferenz, die durch die Detektionsberechnungsein- 
richtungen 52 berechnet wird, korreliert ist, und angibt, 
wie stark ein Fehler storen wird. AnschlieBend werden ge- 
trennte Mittelwerte der Storlautheit und der Detektionswahr- 
scheinlichkeit fiir jeden der sechs Typen berechnet. 
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Ferner werden Kurzzeitmittelwerte Uber einen Zeitrauin von 10 
ms berechnet, wobei die 30 schlechtesten Kurzzeitmittelwerte 
eines kompletten Audiosignals gespeichert werden. Die Mit- 
telwerte wiederum uber diese 30 Worst-Case-Werte und der 
Gesamtmittelwerte ergeben zusammen den Horeindruck. Hierbei 
ist anzumerken, daB Worst-Case-Werte sinnvoll sind, wenn 
StBrungen sehr ungleichmaBig verteilt sind. Gesamtmittel- 
werte sind dagegen sinnvoll, wenn haufig kleine, jedoch 
horbare Storungen auftreten. Die Entscheidung , ob die Ge- 
samtmittelwerte oder die Worst-Case-Werte zur Beurteilung 
des Audiotestsignals herangezogen werden so lien, kann uber 
eine Extremwert-Verknupfung dieser beiden Beurteilungswerte 
erreicht werden. 

Die bisher beschriebene gehorangepaBte Qualitatsbeurteilung 
von Audiosignalen bezog sich auf monoaurale bzw. Mono-Audio- 
signale. Die gehSrangepaBte Qualitatsbeurteilung von Audio- 
signalen gemSB der vorliegenden Erfindung ermoglicht jedoch 
auch eine Beurteilung von binauralen oder stereophonen Au- 
diotestsignalen durch eine nichtlineare Vorverarbeitung 
zwischen der Filterbank 16 bzw. 20 und der Detektion in den 
Detektionsberechnungseinrichtungen 52. Wie es fur Fachleute 
bekannt ist, weisen stereophone Audiosignale jeweils einen 
linken und einen rechten Kanal auf. Der linke und rechte 
Kanal des Audiotestsignals bzw. des Audioreferenzsignals 
werden jeweils getrennt mittels eines nichtlinearen Ele- 
ments, das Transienten frequenzselektiv hervorhebt und 
stationSre Signale verringert, gefiltert. Die Ausgangssi- 
gnale dieser Operation werden im nachfolgenden als das mo- 
difizierte Audiotestsignal bzw. das modifizierte Audiore- 
ferenzsignal bezeichnet. Die Detektion in den Detektions- 
berechnungseinrichtungen 52 wird nun nicht mehr einmal, wie 
es vorher beschrieben worden ist, sondern viermal durchge- 
fuhrt, wobei jeweils folgende Eingangssignale abwechselnd in 
die Detektionsberechnungseinrichtungen 52 eingespeist wer- 
den: 

erste Detektion, linker Kanal (D1L) : linker Kanal des Audio- 
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referenzsignals mit linkem Kanal des Audiotestsignals; 

erste Detektion, rechter Kanal (D1R) : rechter Kanal des 
Audioreferenzsignals mit rechtem Kanal des Audiotestsignals; 

zweite Detektion, linker Kanal (D2L) : linker Kanal des modi- 
fizierten Audioreferenzsignals mit linkem Kanal des modifi- 
zierten Audiotestsignals; und 

zweite Detektion, rechter Kanal (D2R) : rechter Kanal des mo- 
difizierten Audioreferenzsignals mit rechtem Kanal des modi- 
fizierteh Audiotestsignals. 

Von den Detektionen D1L und D1R bzw v D2L und D2R wird nun 
jeweils der Worst-Case-Wert bestimmt, wonach die derart ent- 
standenen Werte ttber einen gewichteten Mittelwert vereinigt 
werden, urn die QualitSt des stereophonen Audiotestsignals zu 
beurteilen. 
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PatentansprtLche 

1. Verfahren zur Qualitatsbeurteilung eines Audiotestsi- 
gnals (14), das durch Codierung und Decodierung von ei- 
nem Audioref erenzsignal (12) abgeleitet ist, mit fol- 
genden Schritten: 

Zerlegen des Audiotestsignals (14) gemSB seiner spek- 
tralen Zusammensetzung mittels einer ersten Filterbank 
(20) aus einander sich frequenzmaBig iiberlappenden, 
Spektralabschnitte def inierenden Filtern (48) mit von- 
einander abweichenden Filterfunktionen, die jeweils 
aufgrund der Erregungskurven des menschlichen Ohrs bei 
der jeweiligen Filtermittenfrequenz (f m ) festgelegt 
sind, in Audiotestteilsignale (22) ; 

Zerlegen des Audioref erenzsignals (12) gemaB seiner 
spektralen Zusammensetzung mittels einer mit der ersten 
Filterbank (20) iibereinstimmenden zweiten Filterbank 
(16) in Audioref erenzteilsignale (18) ; 

spektralabschnittsweises Bilden der Pegeldif f erenz zwi- 
schen den zu gleichen Spektralabschnitten geh6rigen 
Audiotestteilsignalen (22) und Audioref erenzteilsigna- 
len (18) ; und 

spektralabschnittsweises Bestimmen einer Detektions- 
wahrscheinlichkeit fiir die Erfassung eines Codierungs- 
fehlers des Audiotestsignals (14) in dem betreffenden 
Spektralabschnitt aufgrund der jeweiligen Pegeldif fe- 
renz ♦ 

2. Verfahren nach Anspruch 1, 

bei dem die Erregungskurve eine AuBen- und Mittel- 
ohr-Ubertragungsfunktion und internes Rauschen des 
menschlichen Ohrs berlicksichtigt . 
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3. Verfahren nach Anspruch 1 oder 2, 

bei dem die Erregungskurven der Filter (48) der ersten 
und der zweiten Filterbank (16, 20) gemSB der Mitten- 
frequenz der Filter festgelegt sind, urn die zu hohen 
Frequenzen hin abnehmende Frequenzauf lSsung des mensch- 
lichen Ohrs anzunMhern. 

4. Verfahren nach einem der Anspruche 1 bis 3, 

bei dem die Erregungskurven der Filter (48) der ersten 
und der zweiten Filterbank (16, 20) gemSB dem Schall- 
druckpegel des Audiotestsignals bzw. des Audioref erenz- 
signals (12) festgelegt sind, urn bei hoheren Schall- 
druckpegeln f lachere Filterf lanken und niedrigere Ruhe- 
horschwellen als bei niedrigen Schalldruckpegeln auf zu- 
weisen. 

5* Verfcihren nach einem der Anspruche 1 bis 3, 

bei dem die Erregungskurven der Filter (48) der ersten 
und der zweiten Filterbank (16, 20) gemaB dem Schall- 
druckpegel des Audiotestsignals (14) bzw, des Audiore- 
ferenzsignals (12) festgelegt sind, damit jeweils eine 
Fi Iter funkt ion aus Minimaldampfungswerten aller in ei- 
nem Schalldruckpegelbereich moglichen, einem bestimmten 
Schalldruckpegel entsprechenden Filterfunktionen gebil- 
det wird. 

6. Verfahren nach einem der Anspriiche 1 bis 5, 

das vor dem Schritt des spektralabschnittsweisen Bil- 
dens der Pegeldif ferenz die Schritte des spektralab- 
schnittsweisen Modellierens der zeitlichen Verdeckung 
des Audiotestsignals (14) und des Audioref erenzsignals 
(12) aufweist. 

7. Verfahren nach Anspruch 6, 
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bei dem der Schritt des spektralabschnittsweisen Model- 
lierens der zeitlichen Verdeckung das spektralab- 
schnittsweise Integrieren eines Audioref erenzsignals 
(12) oder eines Audiotestsignals (14) zur Beriicksichti- 
gung der Vorverdeckung , und das spektralabschnittsweise 
exponentielle Dampfen des Audioref erenzsignals (12) 
Oder des Audiotestsignals (14) zur Beriicksichtigung der 
Nachverdeckung aufweist. 

8* Verfahren nach einem der Anspriiche 1 bis 7, 

bei dem die Filter (48) der ersten und der zweiten Fil- 
terbank (16, 20) unterschiedliche Abtastraten aufwei- 
sen, wobei die Abtastrate durch den Schnittpunkt der 
frequenzmaBig oberhalb der Mittenf requenz (f m ) eines 
Filters (48) angeordneten Filterf lanke mit einer vorbe- 
stimmten Filterdampfung bestimmt ist. 

9. Verfahren nach Anspruch 8, 

bei dem das Audiotestsignal (14) und das Audioref erenz- 
signal (12) mit einer Abtastrate diskretisiert sind, 
wobei die unterschiedlichen Abtastraten durch den Quo- 
tienten der ursprunglichen Abtastrate und einer Potenz 
von 2 bestimmt sind, wodurch mehrere benachbarte Filter 
(48) zu Unterfilterbanken (42a - 42f) gruppiert werden. 

10. Verfahren nach einem der Anspriiche 1 bis 9, 

bei dem vor dem Schritt des spektralabschnittsweisen 
Bildens der Pegeldif ferenz eine VerzSgerung zwischen 
dem Audioref erenzsignal (12) und dem Audiotestsignal 
(14) bestimmt und ausgeglichen wird. 

11. Verfahren nach einem der Anspriiche 1 bis 10, 

bei dem die Detektionswahrscheinlichkeit bei einer 
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Schwellenpegeldifferenz 0,5 betragt und bei einer klei- 
neren Pegeldif f erenz als der Schwellenpegeldifferenz 
abnimmt und bei einer groBeren Pegeldif f erenz zunimmt. 

12. Verfahren nach einem der Anspriiche 1 bis 11, 

bei dem die Detektionswahrscheinlichkeiten nebeneinan- 
derliegender Spektralabschnitte in einem Spektralbe- 
reich, der kleiner oder gleich einer psychoakustischen 
Frequenzgruppe ist, zusammen ausgewertet werden, wo- 
durch eine subjektive Empfindung des Codierungsf ehlers 
des Audiotestsignals (14) erreicht wird. 

13. Verfahren nach einem der Anspriiche 1 bis 12, 

bei dem mehrere zeitlich auf einanderf olgende Detek- 
tionswahrscheinlichkeiten zu einem Zeitschlitz zusam- 
mengefaBt werden, und die mehreren zeitlich aufeinan- 
derfolgenden Detektionswahrscheinlichkeiten verknupft 
werden, um eine Gesamtdetektionswahrscheinlichkeit fur 
einen Zeitschlitz zu erhalten. 

14 . Verfahren nach einem der Anspriiche 1 bis 13 , 

bei dem Kurzzeitmittelwerte der Detektionswahrschein- 
lichkeiten in einem Spektralabschnitt gebildet werden, 
und eine Anzahl von Kurzzeitmittelwerten eines Audio- 
testsignals gespeichert wird, wobei ein Gesamtmittel- 
wert aller Kurzzeitmittelwerte zusammen mit den gespei- 
cherten Kurzzeitmittelwerten einen Gesamthoreindruck 
des betref f enden Spektralabschnitts des Audiotestsi- 
gnals (14) ergeben. 

15. Verfahren nach einem der Anspriiche 1 bis 14, 

bei dem das Audiotestsignal und das Audioref erenzsignal 
Stereosignale mit einem linken und einem rechten Kanal 
sind; 
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bei dem die Schritte des Zerlegens des Audiotestsignals 
und des Audioref erenzsignals das getrennte Zerlegen des 
linken und rechten Kanals der Signale mittels eines 
nichtlinearen Elements aufweisen, das Transienten her- 
vorhebt und stationSre Signale verringert, um ein modi- 
fiziertes Audiotestsignal mit einem linken und einem 
rechten Kanal und ein modif iziertes Audioreferenzsignal 
mit einem linken und einem rechten Kanal zu erzeugen; 
und 

bei dem das spektralabschnittsweise Bilden der Pegel- 
differenz das Bilden der Pegeldif f erenz zwischen den zu 
gleichen Spektralabschnitten gehorigen 

Audiotestteilsignalen des linken Kanals und Audio- 
ref erenzteilsignalen des linken Kanals, 

Audiotestteilsignalen des rechten Kanals und Au- 
dioref erenzteilsignalen des rechten Kanals, 

modif izierten Audiotestteilsignalen des linken Ka- 
nals und modifizierten Audioreferenzteilsignalen 
des linken Kanals, und 

modifizierten Audiotestteilsignalen des rechten 
Kanals und modifizierten Audioreferenzteilsignalen 
des rechten Kanals aufweist, 

16* Verfahren nach Anspruch 15, 

bei dem aus den Pegeldif ferenzen der Signale filr den 
linken und fiir den rechten Kanal spektralabschnitts- 
weise der schlechteste Wert bestimmt wird; 

bei dem aus den Pegeldif ferenzen der modifizierten Si- 
gnale fiir den linken und fiir den rechten Kanal spek- 
tralabschnittsweise der schlechteste Wert bestimmt 
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wird; und 

bei dem der schlechteste Wert fiir das Audiotest signal 
und der schlechteste Wert ftir das modifizierte Audio- 
testsignal uber einen gewichteten Mittelwert vereinigt 
werden, um den Codierungsf ehler des stereophonen Audio- 
testsignals zu erfassen. 

17. Verfahren nach einem der Anspruche 1 bis 16, 

bei dem die erste und die zweite Filterbank (16, 20) 
eine einzige Filterbank sind, vobei w&hrend des Zerle- 
gens des Audiotestsignals (14) oder des Audioref erenz- 
signals (12) die Audioref erenzteilsignale bzw. die Au- 
diotestteilsignale zwischengespeichert werden. 

18- Vorrichtung zur QualitStsbeurteilung eines Audiotest- 
signals (14) , das durch Codierung und Decodierung von 
einem Audioref erenzsignal (12) abgeleitet ist, mit fol- 
genden Merkmalen: 

einer ersten Filterbank (16) zum Zerlegen des Audio- 
testsignals (14) gemSB seiner spektralen Zusammenset- 
zung in Audiotestteilsignale (22), wobei die erste Fil- 
terbank (16) sich einander frequenzmSBig ilberlappende, 
Spektralabschnitte definierende Filter mit voneinander 
abweichenden Filterfunktionen aufweist, die jeweils 
aufgrund der Erregungskurven des mensch lichen Ohrs bei 
der jeweiligen Filtermittenfrequenz festgelegt sind; 

einer zweiten Filterbank (20) , die mit der ersten Fil- 
terbank (16) iibereinstimmt, zum Zerlegen des Audioref e- 
renzsignals (12) gemaB seiner spektralen Zusammenset- 
zung in Audioref erenzteilsignale (18); 

einer Berechnungseinrichtung zum spektralabschnittswei- 
sen Bilden der Pegeldif f erenz zwischen den zu gleichen 
Spektralabschnitten gehorigen Audiotestteilsignalen 
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(22) und Audioreferenzteilsignalen (18); und 

einer Zuweisungseinrichtung (52) zum spektralab- 
schnittsweisen Bestimmen einer Detektionswahrschein- 
lichkeit fur die Erfassung eines Codierungsf ehlers des 
Audiotestsignals (14) in dem betreffenden Spektralab- 
schnitt aufgrund der jeweiligen Pegeldif ferenz. 

19. Vorrichtung gemSB Anspruch 18 r 

welche ferner eine Modellierungseinrichtung (24) zum 
spektralabschnittsweisen Modellieren der zeitlichen 
Verdeckung des Audiotestsignals (14) und des Audiore- 
ferenzsignals (12) aufweist. 

20. Vorrichtung nach Anspruch 19, 

bei der die Modellierungseinrichtung (24) eine Integra- 
tionseinrichtung zum spektralabschnittsweisen Integrie- 
ren eines Audioref erenzteilsignals oder eines Audio- 
testteilsignals zur Beriicksichtigung der Vorverdeckung 
und eine DSmpfungseinrichtung zum spektralabschnitts- 
weisen exponentiellen Dampfen des Audioreferenzteilsi- 
gnals oder des Audiotestteilsignals zur Beriicksichti- 
gung der Nachverdeckung aufweist. 

21. Vorrichtung nach einem der AnsprUche 18 bis 20, 

die ferner eine Mehrzahl von Gruppenauswertungs- 
einrichtungen (56) zum gemeinsamen Auswerten nebenein- 
anderliegender Spektralabschnitte aufweist, um eine 
subjektive Empfindung des Codierxingsf ehlers des Audio- 
testsignals (14) zu erreichen, wobei die Anzahl der 
nebeneinanderliegenden gemeinsam ausgewerteten 
Spektralcibschnitte derart gewShlt ist, daB eine durch 
die gemeinsam ausgewerteten Spektralabschnitte ge- 
bildete Bandbreite kleiner oder gleich einer psycho- 
akustischen Frequenzgruppe ist. 
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22 ♦ Vorrichtung nach einem der Anspruche 18 bis 21, 

die ferner eine Globalauswertungseinrichtung (54) zum 
gemeinsamen Auswerten aller Spektralabschnitte auf- 
weist, um eine globale Darstellung des Codierungsfeh- 
lers des Audiotestsignals (14) zu erreichen. 
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